La combinación de técnicas distintas se ha demostrado un planteamiento muy productivo en todas las tecnologías orientadas a la Recuperación de Información (RI). Dentro de las técnicas utilizadas, junto con las estadísticas y las de machine learning, destacan las basadas en estrategias lingüísticas. El procesamiento del lenguaje natural (PLN), en la secuencia de lematización, etiquetado morfológico, análisis sintáctico y desambiguación, puede dar buenos resultados en sistemas de RI que actúan sobre conjuntos de datos previamente delimitados (textos, bases de datos documentales, corpus textuales, bancos de conocimiento), como la generación de resúmenes, el enriquecimiento automático de diccionarios computacionales o la extracción automática de terminología. En cambio en la RI orientada a fuentes ilimitadas, como la Web, el procesamiento lingüístico extensivo parece inabordable, y por ello se precisa desarrollar otro tipo de estrategias lingüísticas (ontologías conceptuales, tesauros de indización, jerarquías léxicas, listados de concordancias), que combinadas con las de carácter matemático permitan mejorar la eficacia de los motores de búsqueda existentes.
En este proyecto de investigación nos proponemos desarrollar descripciones eficientes del discurso y de la terminología de la economía, en castellano, catalán, gallego, euskera e inglés, con el objetivo aplicado de crear recursos lingüísticos multilingües, que puedan ser aprovechados por diversas técnicas de RI, y en especial por los motores de búsqueda en Internet. El equipo de investigación ya dispone de un corpus textual procesado lingüísticamente para tres lenguas (castellano, catalán e inglés), y se prevé desarrollar en este proyecto los corpus textuales complementarios del gallego y del euskera, cuya explotación permitirá diseñar estrategias generalizables para la RI. La explotación de estos corpus permitirá desarrollar otras aplicaciones, fundamentalmente de carácter semántico y fraseológico, que puedan aprovecharse en la RI: enriquecimiento de los diccionarios de procesamiento con información semántica y fraseológica, desarrollo de una ontología para el ámbito económico vinculada a una base de datos terminológica multilingüe o la adaptación de un extractor automático de terminología para el ámbito económico. Además de estos recursos, que podrán ser también utilizados en técnicas de extracción de información, los resultados esperados de este proyecto para la RI se basan en el diseño de un sistema automático de reelaboración de consultas multilingüe como input para los motores de búsqueda existentes. Este sistema de reelaboración de consultas usará la información de la ontología y de la base de datos terminológica para transformar una consulta simple, y ambigua, en una consulta compleja que mejore la relevancia de la respuesta dentro del ámbito de la economía.